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摘 要 : 在 传统 的 文本 分 类 中 ,文本 向 量 空间 算 阵 存在 “ 维 数 灾难 ”和 极度 稀 玖 等 问题 ， 而 提取 与 类 别 最 相关 的 关键 
词 作为 文本 分 类 的 特征 有 助 于 解决 以 上 两 个 问题 。 针 对 以 上 结论 进行 研究 ， 提 出 了 一 种 基于 关键 词 相似 度 的 短文 本 分 
类 框架 。 该 框架 首先 通过 大 量 语 料 训 练 得 到 word2vec 词 向 量 模型 ; 然后 通过 TextRank 获得 每 一 类 文本 的 关键 词 ， 在 
关键 词 集合 中 进行 去 重 操作 作为 特征 集合 。 对 于 任意 特征 ， 通 过 词 向 量 模型 计算 短文 本 中 每 个 词 与 该 特征 的 相似 度 ， 
选择 最 大 相似 度 作为 该 特征 的 权重 。 最 后 选择 K 近邻 区 NN) 和 支持 向 量 机 SVM 作为 分 类 器 训练 算法 。 实 验 基于 中 文 
新 闻 标 题 数 据 集 ， 与 传统 的 短文 本 分 类 方法 相 比 ， 分 类 效果 平均 提升 约 6%， 从 而 验证 了 该 框架 的 有 效 性 。 

关键 词 : 词 向 量 ; 特征 选择 ; 短文 本 分 类 ; 特征 权重 
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Research on short text classification based on keyword similarity 
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Abstract: In order to cope with the problem of data sparsity and "curse of dimensionality" in text classification, this paper 
proposes a short text classification framework by taking keyword as featrues and assigning keyword similarity as feature 


weight. First, it trained a word2vec model with large corpus data, then got keywords of each category text by textrank. And it 


selected unique keywords from the keywords collection as features. For each feature, it calculated the similarity of words in 


the short text by word2vec model, and assigned the maximum similarity as the weight of the feature. Finally, it chose KNN 


and SVM as classifier. Experiments on dataset of Chinese news headlines demonstrate that the accuracy outperforms other 
usual methods by 696. 


Key words: word embedding; feature selecting; short text classification; feature weighting 


fH XE VAT AR T LOCIS BUR RHET BL E RHED B] SEAT ER o 
前 对 于 该 问题 ， 主 要 有 两 种 方法 : a) 利 用 搜索 引擎 对 短文 本 

近 几 年 ， 由 于 互联 网 的 快速 发 展 ， 人 们 也 越 来 越 依赖 于 从 ”进行 扩展 外 ， 将 短文 本 扩展 为 一 般 文本 进行 分 类 ; b) 利 用 大 二 
网 络 中 获取 信息 。 如 何 快速 准确 地 获取 自己 想 要 的 信息 成 为 当 ”知识 库 、 语 料 库 作为 背景 知识 中， 发 现 词 语 之 间 的 语义 关系 。 
前 一 个 重点 研究 课题 。 而 文本 数据 量 的 飞速 增长 ， 混 乱 分 布 极 ”以 上 两 种 方法 均 能 提升 段 文本 分 类 的 性 能 。 但 是 仍然 存在 着 计 


zu 


Tr 


大 影响 了 信息 获取 的 效率 与 结果 ， 其 中 还 包含 大 量 诸如 微 博 、 算 耗 时 、 无 法 处 理 新 词 等 问题 。 

新 闻 标 题 、 商 品评 论 等 短文 本 。 因 此 对 短文 本 进行 分 类 也 吸引 针对 特征 稀疏 、 语 义 特征 不 明显 等 问题 , 文献 [各 利用 LDA 

了 越 来 越 多 的 研究 。 主题 一 词 分 布 矩 阵 的 主题 向 量 改进 方法 降低 特征 维度 进行 短文 
在 传统 的 文本 分 类 中 ， 一 般 采 用 文本 向 量 空间 模型 方法 0， ”本 分 类 。 文 献 [5] 融 合 词语 类 别 特征 和 语义 进行 短文 本 分 类 ， 虽 
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然 效果 相 比 传统 方法 有 所 提升 ， 但 是 两 者 均 采 用 LDA 主题 模 


征 的 方法 ， 也 取得 了 


型 。 该 模型 属于 无 监督 学 
择 ， 需 要 不 断 优化 。 文 献 [6] 提 出 了 提取 文档 关键 词 作为 文本 特 
较 好 的 分 类 结果 。 


习 ， 速 度 较 慢 ， 


依赖 主题 数量 的 选 


虽然 文档 关键 词 考虑 了 


文本 语义 信息 ,但 是 文档 关键 词 会 随 着 文档 数量 的 增加 而 增加 ， 
导致 文本 向 量 空间 矩阵 维度 较 大 ， 计 算 耗 时 。 本 文 结合 不 同方 


法 的 特点 , 采用 


的 方法 有 文档 频率 、 信 
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息 增益 、 互 信息 等 。 


此 类 方法 存在 无 法 


处 理 新 文本 的 缺陷 ， 即 车 文本 中 的 特征 均 不 存在 有 效 特征 集合 


中 ， 该 文本 将 无 法 有 效 表示 。 
针对 以 上 问题 ， 本 文 提出 提取 类 别 关键 词 作为 文本 特征 。 
前 主流 的 关键 词 提取 方法 以 无 监督 方法 为 主 ， 其 中 涉及 统计 


TextRank 提取 类 别 关 键 词 ， 作 为 新 的 短文 本 特 


征 ， 使 得 文本 向 量 空间 的 特征 集合 不 再 
而 是 短小 有 限 的 关键 词 集合 。 再 通过 word2vec 模型 计算 词语 之 


是 长 度 达 数 干 的 词汇 表 


a) 本 文 


间 的 语义 相似 度 作为 特 4 
在 此 基础 上 训练 分 类 器 进行 短文 本 分 类 。 

本 文 的 主要 贡献 如 下 : 
是 出 了 一 种 基于 类 别 关 键 词 的 文本 特征 选择 方法 ， 


E 权 值 ,保留 了 短文 本 的 一 定语 义 信息 ， 


类 别 关 键 词 个 数 远 小 于 文档 的 总 词 数 ， 能 够 较 好 地 解决 维度 过 


高 等 问题 。 


b) 在 特征 表示 中 本 文 将 词语 之 间 的 相似 度 作为 特征 
重 ， 弥 补 了 “ 词 袋 ”模型 
c) 基于 以 上 两 点 本 文 
实数 据 集 的 实验 表明 该 框架 相 


过 对 


定 提升 。 


1 ”相关 工作 与 流程 


设 短 文本 集合 


了 =fy7,y2y3.…ynj， 特 征 和 
是 通过 基于 关键 词 相似 度 利用 
X={X1,X2X3,. Xn) 7 了 Xi(1<i<n) 均 为 m 旨 
能 够 使 得 将 D 中 的 元 素 


x] 1 所 示 。 


提取 类 别 关 
键 词 


图 1 


D={di,d2,d3,...,dn} ; 


基于 关键 词 相 化 


E W={W1,W2,W3,.. Wm} RX HJE 


W 将 


的 权 


Ph 未 考虑 语义 的 缺点 。 
是 出 了 一 种 新 的 短文 本 分 类 框架 , i 


通 


传统 分 类 方法 效果 有 


短文 本 类 别 标 和 


D 转换 成 向 量 空间 矩阵 


向 量 ,再 


训练 得 到 分 类 器 ， 


尽 可 能 分 类 得 到 正确 的 类 别 。 具体 流程 


perum 训练 分 类 器 


度 的 短文 本 分 类 流程 


Fig.l Short text classification process based on keyword similarity 


2 ”特征 选择 及 特征 表示 


在 本 章 中 主要 介绍 基于 基于 TextRank 的 短文 本 特征 选择 


以 及 基于 word2vec 的 特征 
基于 TextRank 的 短文 本 特征 选择 


2.1 


表示 。 


传统 的 短文 本 特征 


的 基本 思想 是 对 文本 集合 中 的 每 


个 特 


征 计算 某 种 统计 度量 值 ， 并 日 


设 定 


闷 值 ， 将 该 特征 过 滤 ; A 


个 阔 值 。 若 该 度量 值 小 于 


j 认 为 该 特征 为 有 效 特征 。 比 较 典 型 


方法 、 图 模型 方法 以 及 语义 方法 。 


以 词 频 一 逆 文 档 频 率 〈term 


frequency-inverse document frequency ,TF-IDF) 上 为 基础 ， 衍 生 
了 很 多 有 效 的 关键 词 
没有 考虑 到 语义 和 词 与 词 之 间 的 关系 ， 而 且 无 法 对 单 
行 关 键 词 提取 ， 


取 算 法 ， 但 是 TF-IDF 仅仅 考虑 词 频 ， 
文档 进 


不 适合 进行 类 别 的 关键 词 提取 。 


TextRank!? 


文档 关键 词 ， 


词 提取 。 在 TextRank 算法 中 ， 


G-(VE,W), 
关键 词组 成 ， 


算法 基于 词汇 的 共 现 链 ， 以 图 模型 的 方法 提取 
该 方法 效果 较 好 ， 也 能 够 实现 对 单一 文档 的 关键 
首先 构建 候选 关键 词 图 
文档 中 的 候选 
动词 的 非 停 用 词 。 


其 中 节点 集 
一 般 为 词性 为 名 词 、 


Ve { V1,V2,V3,. «Vn da I 


AAIR 


Wz(wj|1sis&n^lzjzn]) 为 图 的 权重 集合 ,，E={(viv) | ve V 


Hl, KEFA 


FERIAREN 


Avj€ VAwi EWA wO 444-75 ATHERE REA. W 
个 节点 之 间 存在 边 仅 当 它 们 对 应 的 词汇 在 长 度 为 天 的 窗口 中 共 
大 小 ， 即 最 多 共 现 天 个 单词 。 由 G 可 以 得 到 对 
EFE Si. XO. 
Wii Win 
Swa =| i : (1) 
Wn Won 


WS(v)2d-d)*dx Y 


节点 的 集合 。 


计算 结束 之 后 ， 根 据 节 点 的 权重 降序 排列 。 在 此 
T dis EAS CAS B 
背景 知识 语 料 ， 提 取 的 关键 词 


E3 ?9 
pu 


G 和 Sin, IESESNQOXA INTE T AAE o 


Ep: WSQ22g 8 vi 的 权重 值 ，d 是 阻 
置 为 0.85， 表 示 任 意 一 节点 跳 转 到 其 他 任意 节点 的 概率 ; In(vi) 
表示 指向 节点 vi 的 所 


Ww. 
ATO, 
x Wi 


v, eOut(v;) 


(2) 


vj eIn(v;) 


尼 系 数 ， 一 般 设 


E 4 
了 节点 的 集合 ; 


Out 表示 vi 指向 的 所 有 
AHRR 20-30 WK, SAXIS E ELS 0.000 1。 
基础 上 ， 本 文 
背景 知识 语 料 提取 类 别 关 键 词 ， 如 对 于 体育 类 
依次 为 ER”, “ERNA”, “ER 
对 于 财经 类 背景 知识 语 料 、 提 取 的 关键 词 依次 为 


{“ 中 国 e 


pris 


公司 ”，“ 市 场 ”.....} 等 。 


2.2 ”基于 word2vec 的 特征 权重 


在 确定 文本 特征 之 后 ， 需 要 对 每 一 个 样本 的 所 有 


一 定 的 权重 。 


的 权 值 分 类 方法 有 二 分 类 该 特征 在 文本 出 现 即 为 1， 未 出 
即 为 0)、 词 频 (tf)、 北 文档 频率 (idf)、TF-IDF 等 。 
文档 中 不 包含 的 词 计算 存在 的 词 的 特征 权重 ,在 
P. BU BI] TF-IDF, fü 


的 情况 1 


特征 分 配 


分 配 权重 的 好 坏 将 极 大 影响 分 类 效果 。 比 较 传统 


e 


i 


文献 [9] 通 
其 他 条 件 相 
县 炉 等 方法 分 类 效果 有 明显 的 


可 


提升 。 文 献 [10] 针 对 朴素 贝 叶 斯 分 类 器 ， 通 过 从 训练 数据 深度 


计算 特征 加 权 频 率 一 定 程度 


是 高 了 分 类 效果 。 然 而 大 多 数 有 关 


FIERE BE RS 


究 还 是 仅仅 考虑 特征 频率 等 “ 词 袋 "层面 的 联系 ， 


录用 定稿 


未 考虑 到 特征 与 文本 之 间 的 语义 关系 。 为 此 ， 本 文 将 词 与 
间 的 相似 度 作 为 特征 权 值 ， 在 文本 转换 为 向 量 的 过 程 中 保 
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词 之 
留 了 


一 定语 义 内 容 。 

为 了 准确 计算 词语 之 间 的 相似 度 ， 本 文选 择 word2v 
模型 。Word2vec 模型 自 提出 以 来 就 得 到 了 广泛 应 | 
利用 word2vec 模型 用 于 观点 分 类 , 效果 比 词 袋 模型 出 色 。 


[13] 借 助 word2vec 模型 所 包含 的 语义 信息 提取 中 文 评论 的 1 


ecl!!! 


] ， 文 献 [12] 


特征 , 在 情感 分 析 方 面 取得 了 不 错 的 效果 。Word2vec 模型 


质 是 一 种 具有 隐 含 层 的 神经 网 络 ， 输 入 输出 均 为 词汇 表 ，i 


学 习 词 与 上 下 文 之 间 的 关系 ， 待 神经 网 络 收敛 之 后 ， 从 输 
到 隐 含 层 的 向 量 代表 词汇 表 中 每 个 词 的 向 量 。Word2vec 包 


入 
含 两 


种 训练 模型 CBOW(continueous bag-of-words) 和 Skip-Gram。 相 


对 来 说 CBOW 更 适用 于 较 大 的 语 料 数据 .因此 本 文采 用 


训练 模型 得 到 的 词 向 量 模型 表示 短文 本 中 的 词汇 。 
Input Layer Hidden Layer Output Layer 
Ol 
O| 
Wis o Q 
le) 
O O 
O| (e e 
w. e p O 
ipe E ow 
H o $ 
Ol Ol 
Ol (0) 
Wo 0 U 
Oj 
图 2 CBOW 模型 
Fig.2 CBOW model 


在 CBOW 训练 模型 中 , 它 将 词 的 上 下 文 作为 输入 , 而 
作为 输出 ， 如 图 2 所 示 。 输 入 层 为 第 i 个 词 的 前 后 m 个 词 
出 层 为 第 i 个 词 wi, 输入 输出 层 向 量 均 为 one-hot encoding 
维度 数 等 于 词汇 数量 。 核 心思 想 即 根据 上 下 文 预测 当前 词 
概率 。 在 训练 结束 以 后 ， 可 以 得 到 所 有 词 的 词 向 量 。 令 第 
词 的 词 向 量 为 si, 第 j 个 词 的 词 向 量 为 sj, 则 可 以 根据 余弦 
度 计 算得 到 两 个 词 之 间 的 相似 度 ， 如 式 (3) 所 示 。 


sim(s;,$,) = — 
: |s | 


3 ”基于 关键 词 相似 度 的 短文 本 分 类 方法 


S;*S; 
ils; 


CBOW 


该 词 
， 输 
> BẸ 
语 的 
个 


相似 


(3) 


本 章 将 介绍 基于 关键 词 相似 度 的 短文 本 分 类 方法 的 


具体 


框架 以 及 相关 细节 。 各 符号 定义 如 表 1 所 示 。 
表 1 短文 本 分 类 中 各 符号 的 定义 
Table 1 Definition of symbols 
符号 定义 
P-(pipz,...,px] 不 同类 别 的 背景 知识 语 料 
D-(di.d»,...,ds) 短文 本 集合 
C 短文 本 类 别 集合 


di-(q1,42,....Qm]) 文本 i 的 词汇 集合 
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K={kı,k2,...,kk} 所 有 类 别 的 关键 词 集合 
k 369 j 的 关键 词 集合 
Y 短文 本 的 标签 集合 
Dic 文本 特征 集合 


VE {wi,w2,..,Wa} 文本 i 表示 的 特征 向 量 


sim(a,b) 向 量 a 与 向 量 2 的 相似 度 
Model 词 向 量 模型 
3.1 短文 本 特征 选择 


基于 TextRank， 本 文 依据 算法 1 获得 短文 本 的 文本 特征 。 
算法 1 基于 关键 词 的 短文 本 特征 选择 
输入 : 不 同类 别 的 文本 语 料 P， 关 键 词 个 数 n。 

输出 : 类 别 关 键 词 集合 Dic。 

(D for pi in P: 

©  pi-Text pre-process(pD;# 对 背景 知识 语 料 做 文本 预 
AES 

© k;zTextRank(pitopk-n)/*TextRank 降序 排列 关键 词 ， 
选取 第 i 类 语 料 的 前 n 个 关键 词 */ 

(D end for 

© for kiin K: 

(8) foreach word in ki: 


© if word appears only once: 
Dic.append(word/ X] $2551] & fi is] E 5 8 
HANESAN IRER rp LBS i] V 
(9 end for 
(0) end for 
3.2 短文 本 特征 向 量 表示 
在 进行 文本 分 类 之 前 , 都 需要 将 文本 转换 成 特征 向 量 以 便 
能 够 使 用 分 类 器 进行 训练 和 学 习 。 本 文 的 特征 向 量 表示 方法 如 
算法 2 所 示 。 
算法 2 短文 本 集合 特征 向 量 表示 
输入 : 文本 特征 集合 Dic， 词 向 量 模型 Model， 短 文本 集 
£D. 
输出 : 短文 本 集合 特征 向 量 V. 
(D for diin D: 
Q foreach win Dic:/*Dic 中 元 素 个 数 即 为 特征 个 数 */ 


pap 
e 
E 


uU 


(©) max_sim =-1 

©) for qjin di: 

© s=sim(Model(gqj)),Model(w))/* 通 过 词 向 量 将 词 转 
换 成 向 量 进行 相似 度 计算 */ 

© if(s>max_sim)max_sim =s 

DD end for 

wmax_sim/* 文 本 i 的 第 j 个 特征 权重 */ 

© endfor 

end for 
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3.8 短文 本 分 类 最 后 为 验证 语义 性 对 分 类 效果 的 提升 , 在 特征 集 保持 不 变 
通过 以 上 方法 就 能 够 得 到 短文 本 集合 的 特征 向 量 抢 阵 ”的 情况 下 ,特征 权重 由 词 频 代 替 ， 对 比 实验 结果 。 在 此 过 程 中 
X={X1X2X3, Xn) n 为 短文 本 数据 集 大 小 ; xi(1<i<n) 为 m 维 本 文 提出 的 方法 为 Key-CBOW。 

向 量 ; m 为 特征 集 大 小 。 结 合 标签 集合 了 可 以 使 用 分 类 算法 如 — 043 实验 评估 


KNN、SVM 等 进行 实验 ， 验 证 以 上 特征 选择 和 特征 权重 计算 本 次 实验 评估 分 别 有 以 下 四 个 指标 : 
方法 的 优 劣 。 a) 分 类 准确 率 Precision. 
类 别 ci 的 分 类 准确 率 pi;， 如 式 (4) 所 示 。 


4 ”实验 与 结果 


" 分 类 结果 中 正确 分 为 c 的 样本 个 数 (4) 
为 了 验证 基于 关键 词 相似 度 的 短文 本 分 类 方法 的 有 效 性 ， 分 类 结果 中 所 有 分 为 c 的 样本 个 数 
本 文 利用 近 两 年 的 新 浪 热点 新 闻 数 据 进行 实验 。 首 先 介绍 数据 b) 分 类 召回 率 Recall. 
集 以 及 对 比 的 算法 ;最 后 在 数据 集 上 进行 10 折 交 叉 验 证 该 方法 类 别 ci 的 分 类 召回 率 ri， 如 式 (5) 所 示 。 
的 有 效 性 。 -分 类 结果 中 正确 分 为 c 的 样本 个 数 5 
41 数据 集 与 实验 设置 i 类 别 为 ci 的 实际 样本 个 数 
本 文 以 近 两 年 的 热点 新 闻 为 实验 数据 ， 采 集 了 包括 体育 、 c)F1 分 数 。 
po 娱乐 、 财 经 、 科 技 、 国 际 、 军 事 七 大 类 的 新 闻 标 题 以 及 类 别 ci 的 Fl 分 数 fli， 如 式 (6) 所 示 。 
正文 。 标 题 用 于 短文 本 分 类 ， 正 文 用 于 作为 背景 知识 进行 关键 gj Ren (6) 
词 提取 。 同 时 为 了 数据 均匀 分 布 ， 各 类 新 闻 标 题 数据 数 量 均 为 pti 
2000 条 ， 如 表 2 所 示 。 而 word2vec 模型 则 由 额外 语 料 〈 百度 d) 宏 平均 Fl 分 数 。 
百科 20 G、 新 闻 语 料 12 G、 小 说 90 G) 数据 训练 而 得 。 对 于 它 是 所 有 类 别 的 Fl 分 数 的 算术 平均 值 ， 如 式 (7) 所 示 。 
分 类 算法 的 设置 中 ，SVM 核 函 数 采 用 径 向 基 函 数 (radial basis _ 25» " 页 
function, RBF). RBF 在 线性 不 可 分 的 情况 下 效果 优 于 线性 核 en zx 
且 计 算 耗 时 少 于 多 项 式 核 。 通 过 实验 比较 ，KNN 选择 近邻 数 N 44 实验 结果 及 分 析 
为 15 较 合 适 。 图 3 验证 了 类 别 关键 词 个 数 对 短文 本 分 类 效果 的 影响 , 验 
表 2 新 闻 标题 数据 集 证 指标 为 Fl-macro。 关 键 词 个 数 取 N={ 20, 40, 60, 80, 100, 120, 
Table 2 Data set of news headline 140,160]. WAKE, SVM 算法 要 优 于 KNN 算法 ， 原 因 在 于 特 
Category Number of news headlines 征 为 类 别 关 键 词 ， 类 别 间 可 分 性 比较 好 ;而 KNN 比较 适合 基 
Technology 2000 于 样本 相似 度 的 方法 , KNN 并 不 依赖 于 特征 的 可 区 分 度 。 当 关 
Sports 2000 键 词 个 数 较 少时 , 效果 均 不 是 很 理想 , 随 着 关键 词 个 数 的 增加 ， 
Society 2000 文本 特征 集 扩大 ， 分 类 效果 提升 。 当 关键 词 个 数 达到 一 定 值 之 
Entertainment 2000 后 达到 稳定 ，F1l-macro 值 不 再 提高 。 为 避免 过 拟 合 以 及 欠 拟 合 
Military 2000 等 问题 ， 本 文 后 续 实 验 中 的 关键 词 个 数 均 设置 为 100。 
International 2000 
Finance 2000 MES 


0825] > SVM 


42 实验 设计 
为 验证 本 文 提出 的 方法 的 有 效 性 , 首先 在 相同 的 分 类 算法 
上 ， 验 证 不 同 的 关键 词 个 数 对 分 类 效果 的 影响 ， 然 后 选择 较 合 
适 的 关键 词 个 数 作 为 实验 参数 ， 与 以 下 两 个 实验 做 对 比 。 
a)TF-IDF 对 数据 进行 常规 预 处 理 〈 去 除 标点 符号 、 去 除 


停 用 词 等 ) 后 , 计算 短文 本 的 TF-IDF 特征 向 量 。 最 后 使 用 KNN m 
9 a o 89 0 Pm m 160 
和 SVM 进行 训练 和 验证 。 the number of keywords 
b) Sum-CBOW 于 短文 本 词 数 较 少 ， 获 得 的 TF-IDF 特 图 3 ”基于 关键 词 个 数 的 FI-macro 值 对 比 
征 向 量 维度 高 且 极 其 稀 朴 , 且 词 向 量 本 身 具 有 较 好 的 语义 特征 ， Fig.3 Comparison of F1-macro based on number of keywords 
文献 [14] 提 出 了 将 短文 本 中 所 有 词 的 词 向 量 累加 作为 短文 本 的 对 比 实验 结果 如 表 3 所 示 。 根 据 表 3 的 结果 可 以 看 到 ， 
特征 向 量 的 方法 ， 即 特征 维度 为 词 向 量 的 维度 而 不 是 类 别 关 键 Sum-CBOW 的 分 类 效果 相对 较 差 , 将 短文 本 的 词 向 量 直接 闭 加 


词 的 数目 。 该 方法 的 文本 向 量 空间 维度 低 、 分 类 速度 快 ， 效 果 ”作为 该 文本 的 特征 向 量 ， 虽 然 能 够 一 定 程度 保留 该 短文 本 的 语 
也 相对 较 好 。 该 方法 在 本 文中 简称 Sum-CBOW。 义 信息 ， 但 削弱 了 类 别 特征 的 区 分 度 。 传 统 的 TF-IDF 在 本 次 
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实验 中 效果 较 好 , 但 是 存在 召回 率 和 准确 率 偏差 略 大 、 特征 多 、 


NE 
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T 


特征 以 及 将 短文 本 与 特征 的 最 大 相似 度 作为 特征 权重 ， 能 够 有 


效 挖掘 出 短文 本 与 不 同类 别 的 核心 i 
量 的 过 程 中 保留 语义 。 因 此 对 于 测试 数据 集 ， 虽 然 部 分 指标 未 


百 义 关联 ， 在 转换 为 特征 向 


达到 最 大 值 , 但 是 本 文 方法 在 准确 率 和 召回 率 保 持 


bids 


将 平均 准确 率 和 平均 召回 率 都 提升 了 约 690. El 4 为 三 个 实验 
对 于 数据 集 各 类 别 分 类 Fl 值 的 直观 对 比 ， B. 


基于 关键 词 相似 度 的 短文 本 分 类 方法 能 够 有 效 提 高 分 类 效果 。 


表 3 不 同 算法 的 分 类 效果 表现 比较 
Table 3 Comparison of classification effects on different algorithms 
TF-IDF Sum-CBOW Key-CBOW 
Category P R Fl P R Fl P R Fl 
Technology ^ 0.77 0.74 0.76 0.58 0.75 0.66 0.74 0.3 0.73 
Sports 0.92 0.88 090 091 0.87 0.89 0.94 0.95 0.95 
Society 0.57 0.71 0.64 0.80 (051 0.68 075 071 073 
Entertainment — 0.70 0.90 0.79 0.68 091 0.78 0.89 0.90 0.90 
Military 0.80 0.87 0.83 0.79 0.81 0.80 0.83 0.86 0.85 
International — 0.75 — 0.63 0.69 0.68 0.91 0.78 0:73 077 075 
Finance 0.88 0.55 0.68 0.82 0.532 0.64 0.76 0.74 075 
Average 077 0275 0.75 075 075 0.4 081 0.81 081 
103 
WE Sum-CBOW 
054 um TF-IDF 
9 mm Key-CBOW 
091 03902 02 I 
085 
0.83| 
08 
08 09 
g 078 
e 
$ 
i 


实验 Key-Frequency . 


x-[wiws,... 


2> 
a 


0.76 075 
073 073 
4 9 
Í mu " 
0.66 
0.64 
0.6 
0.5 


sports military internationalentertainment society technology finance 
category of news headlines 
图 4 不 同 算法 的 类 别 FI 值 对 比 


Fig.4 Comparison of Fl values of category of different algorithms 
针对 验证 语义 关系 对 分 类 能 力 的 影响 ， 本 文 设计 了 第 三 个 
在 此 实验 中 ， 对 于 短文 本 特征 向 量 
,Wo Gn 为 特征 集 个 数 )， 特 征 权重 不 再 是 短文 本 与 


TUE 


该 特征 的 相似 度 ， 而 是 该 特征 在 短文 本 中 的 频次 ，KNN 为 该 实 


仿 的 分 类 算法 。 
果 明 显 比 该 方法 出 色 ， 
情况 下 ， 
的 词 ， 从 而 验证 了 本 文 提 
法 能 够 有 效 提升 分 类 效果 。 


实验 结果 的 Fl 值 如 表 4 所 示 。TF-IDF 分 类 效 
说 明 在 缺失 了 语义 相似 度 和 特征 较 少 的 
以 词 频 为 特征 权重 无 法 处 理 大 部 分 且 不 在 特征 集合 中 
出 的 将 语义 相似 度 作 为 特征 权重 的 方 
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表 4 语义 相似 度 对 分 类 Fl 值 的 影响 
Table 4 Influence of semantic similarity on Fl value 
Category Key-Frequency TF-IDF 
Technology 0.31 0.76 
Sports 0.40 0.90 
Society 0.44 0.64 
Entertainment 0.33 0.79 
Military 0.55 0.83 
International 0.10 0.69 
Finance 0.31 0.68 
结束 语 
鉴于 短文 本 分 类 中 高 度 稀疏 、 缺 少 语义 特征 等 问题 ， 本 文 


提出 了 一 种 基于 关键 词 相似 度 的 短文 本 分 类 框架 。 该 框架 综合 
考虑 类 别 词汇 以 及 语义 信息 ， 通 过 选择 有 限 的 类 别 关 键 词 作为 


特征 集合 以 及 将 词 与 特 和 


F 之 间 的 相似 度 作为 特征 权重 ， 既 解决 
E 度 过 高 的 问题 ， 又 保留 了 短文 本 的 语义 ， 提 高 了 


文本 的 区 分 度 。 本 文通 过 基于 词 频 和 基于 语义 的 对 比 实验 ， 验 


大 的 现象 ， 
特征 权重 的 方法 ， 


验证 


作 主 要 是 分 析 不 同类 别 短文 本 分 类 效果 差异 较 
以 及 考虑 相应 的 优化 方法 。 对 于 用 语义 相似 度 表 示 
可 以 考虑 对 比 语义 相似 度 的 不 同 计算 方法 ， 


E 本 文 方法 的 可 行 性 。 
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